Web Scraping avec n8n | Partie 1 : Créez votre premier Web Scraper

DEV - 17/10
Ce que cela couvrira ! Si vous avez déjà souhaité pouvoir automatiser le scraping sans configurer de...

Ce que cela couvrira !

Si vous avez déjà souhaité pouvoir automatiser le scraping sans configurer un tas de scripts, de proxys ou de logique de navigateur, vous êtes au bon endroit.

Nous utiliserons n8n, l'outil d'automatisation low code, avec l'API Zyte pour récupérer des données structurées depuis https://books.toscrape.com/.

À la fin, vous disposerez d'un flux de travail qui fonctionne de manière autonome, vous donnant une sortie JSON ou CSV propre de tous les livres - leurs noms, prix, notes et images. Et une configuration que vous pouvez facilement adapter à d’autres sites Web accessibles au public ou de test avec des mises en page similaires.

Allons gratter !

Le plan de jeu :

  • Récupérez la page à l'aide de l'API Zyte (elle gère le rendu et gère automatiquement les blocs)
  • Extraire le contenu HTML dans n8n
  • Analyser les éléments du livre avec les sélecteurs CSS
  • Nettoyer et normaliser les données
  • Exporter les résultats au format JSON ou CSV

Tout d’abord, préparons n8n à démarrer. Vous pouvez le configurer gratuitement localement ou dans le cloud selon votre préférence. Si vous passez en local, installez-le via Docker ou npm, cela ne prend que quelques commandes.

Une fois que c'est terminé, les étapes ci-dessous fon...
[Courte citation de 8% de l'article original]

Loading...